发布时间:2026-04-18 来源:东补西凑网作者:路德拉伯雷
智东西作者 杨京丽编辑 李水青
智东西4月17日报道,4月15日,字节Seed团队发布Seedance 2.0技术论文,《Seedance 2.0:推动视频生成应对复杂世界》(Seedance 2.0: Advancing Video Generation for World Complexity),论文系统展示了这款多模态视频生成模型的核心能力与评测结果。
![]()
▲字节发布Seedance 2.0论文
今年2月初,Seedance 2.0发布并上线,目前已接入豆包、即梦AI和火山引擎,模型ID为doubao-seedance-2-0-260128。此外,字节还提供了加速版Seedance 2.0 Fast,面向低延迟场景。
相比前代Seedance 1.0和1.5 Pro,Seedance 2.0最大的变化是从“生成短视频片段”走向了“支持多种控制信号的可控视频合成”,它采用统一的、大规模的多模态音视频联合生成架构,原生支持文本、图像、音频、视频四种输入模态。在开放平台上,它最多可同时接收3段视频+9张图+3段音频作为参考,直接输出4–15秒、480p或720p分辨率的音视频内容。
![]()
▲Seedance 2.0生成视频
从字节公布的评测结果看,对比Kling 2.6、Kling 3.0、Sora 2 Pro、Veo 3.1、Seedance 1.5等模型,Seedance 2.0在文生视频(T2V)、图生视频(I2V)、参考生视频(R2V)三大任务的所有维度上均取得第一;在Arena.AI评测平台上,Seedance 2.0曾登顶T2V和I2V双榜,目前T2V榜首已被HappyHorse-1.0反超,Seedance 2.0以微弱差距位列第二。
值得注意的是,这是一篇侧重“能力评测与产品落地”的技术论文,并未深入披露模型架构与训练细节。
论文的评测结果主要基于字节自建评测集SeedVideoBench 2.0。该框架是SeedVideoBench 1.5的升级版,新增了多模态任务评估体系(覆盖参考、编辑、扩展、组合四大任务组)和叙事质量评价体系(含镜头语言、情节设计、风格美学三个子维度),采用客观+主观双轨评分。
论文链接:https://arxiv.org/abs/2604.14148Seedance 2.0官网:https://seed.bytedance.com/seedance2_0
一、遵循真实世界规律,高保真音视频生成
作为一款原生多模态音视频生成模型,Seedance 2.0在视频与音频生成的所有关键子维度上都带来了实质性、全面的能力提升,并在专家评估和公众用户测试中,展现出与行业领先水平相当的表现。字节在论文中介绍了Seedance 2.0的四大核心能力:
1、真实世界复杂性生成。Seedance 2.0在人体运动建模的自然度、时序连贯性与物理合理性方面大幅提升,能生成时序精确的复杂交互场景,严格遵循真实世界运动规律,缓解此前常见的生成伪影。特写镜头下,光线折射、人物与环境互动等细节接近实拍素材;多主体交互与复杂运动场景的可用率明显高于近期商用模型。
2、强多模态能力。模型可准确解析多模态输入,在画面构图、镜头设计、运动节奏、声学特征等维度严格遵循指令,并支持直接引用文本分镜脚本。即便面对大量角色交互和精细动作描述的复杂脚本,也能维持主体身份一致性;同时具备基础的导演与摄影推理能力,可自主规划分镜序列和视觉呈现模板。2.0版本还新增了视频编辑与续写功能,支持对指定片段、角色、动作或情节做定向修改,或对已有素材做无缝延展。
3、高保真音视频生成。搭载升级版音频生成模块,集成双耳音频技术,可同时输出背景音、环境音效、角色配音等多轨道内容,对细微自然环境音也能忠实还原,并与画面节奏精准对齐,为专业级音视频内容创作提供支撑。
4、生产力场景应用。在商业广告、影视特效、游戏动画、解说视频等多类用例下展现强跨场景适应性。字节认为,以AI生成替代传统视觉特效与实拍工作流,可显著降低专业音视频内容的制作成本、缩短制作周期,帮助创作者与企业落地创意。
从Seedance 1.5到Seedance 2.0,生成框架由音视频同步生成转变为统一多模态音视频联合生成,字节Seed团队称,Seedance系列始终围绕统一架构构建,核心目标是高保真重建真实世界的复杂性。
二、文生视频:运动质量断层领先,物理建模明显改善
在文生视频(T2V)任务上,字节团队将Seedance 2.0与Kling 2.6、Kling 3.0、Sora 2 Pro、Veo 3.1、Seedance 1.5五款同期模型进行了系统对比,评测覆盖运动质量、视频指令遵循、美学、音频质量、音画同步、音频指令遵循六个维度。
从整体得分看,Seedance 2.0在全部6个维度上均排名第一,是唯一在所有维度上得分均超过3.4分(5分制) 的模型,平均比Seedance 1.5提升0.86分,其中运动质量维度提升最大,提高1.36分;运动质量与音画同步两项均达3.75分,领先第二名至少0.65分。
![]()
▲T2V六维度总体评分对比
运动质量是Seedance 2.0相比1.5版本提升最大的单项。在30个细分类别中,Seedance 2.0在29项上排名第一(仅群体协同运动与Kling 3.0并列),得分区间3.29-4.43,其中多实体特征匹配(4.43)、构图(4.25)、剪辑节奏(4.21) 三项均超过4.0。
更值得关注的是,Seedance 2.0在物理建模上明显改善:Seedance 1.5此前在物理反馈(1.69)、自然现象(2.00)、激烈运动(2.00)等维度上得分偏低,2.0版本均提升超过1.5分。
![]()
▲T2V运动质量维度评分
美学是竞品差距最小的维度。Seedance 2.0在30个细分类别中的28项上排名第一(包括并列第一),整体得分区间2.79–4.14。得分最高的维度为视觉风格(4.14)、长脚本(4.14)、构图(4.13)。
从竞品看,Kling 3.0在13个美学类别上得分超过3.5,最强项为超现实运动(3.86)、同类型交互(3.79)与构图(3.75);Sora 2 Pro与Veo 3.1在假日、消费特效等类别上明显偏弱(均跌至2.5分以下)。
![]()
▲T2V美学维度评分
音频质量也是Seedance 2.0的优势之一。在17个细分类别中全部排名第一,得分区间2.82–4.17。其中英语(4.17)、语音+动作交互(4.00)、少数民族语言(3.82)、环境/背景音(3.78) 为最强项。
相比Seedance 1.5,提升最显著的三项分别是中文戏曲(2.50→3.75)、英语(3.00→4.17)、演唱/说唱(2.71→3.71)。
从竞品侧看,除Sora 2 Pro的演唱/说唱(3.67)外,没有任何竞品在任何单一类别上得分超过3.2分。Kling 3.0在演唱/说唱和环境/背景音上较前代Kling 2.6出现回退。整体来看,竞品普遍存在音频浑浊、噪声明显、层次感弱的问题,尤其在复杂音效与人声清晰度上短板突出。
![]()
▲T2V音频质量维度评分
三、图生视频:音频领先较大,图像保持竞争激烈
在图生视频(I2V)任务上,字节将Seedance 2.0与Wan 2.6、Kling 2.6、Veo 3.1、Kling 3.0、Seedance 1.5 Pro五款同期模型对比,评测覆盖视频侧运动质量、视频指令遵循、图像保持和音频侧音频质量、音画同步、音频指令遵循六个维度。
![]()
▲I2V六维度总体评分对比
Seedance 2.0在全部6维度均排名第一,得分区间3.31–3.70,没有任何竞品超过3.18分;其中图像保持各个视频模型竞争较为激烈,Kling 3.0仅落后0.13分,运动质量则拉开0.55分差距。音频依旧是竞品的集体短板,Kling 2.6(2.21)、Wan 2.6(2.18–2.55)三项均低于3.0分,排名第二的Seedance 1.5 Pro也落后0.54–0.60分。
![]()
▲视频及音频维度下的I2V可用性及满意度评分
可用率与满意率上,Seedance 2.0是唯一在全部6个维度可用率均超过87%的模型:运动质量满意率43.88%,约为次席Kling 3.0(12.00%)的3倍以上;视频指令遵循满意率47.48% vs Veo 3.1的20.54%。音频差距更悬殊——音频质量满意率57.08%,而Kling 2.6、Wan 2.6的可用率甚至不足28%,意味着大多数竞品音频输出直接不可用;音频指令遵循满意率63.52%,分别是Seedance 1.5 Pro(37.77%)的1.7倍、Kling 2.6(5.70%)的10倍以上。
除打分外,字节团队还观察到Seedance 2.0在格斗、舞蹈等场景能混合慢动作高光与快速动作,人物表情眼神更生动;运镜多变,新增第一/第三人称游戏视角与手持呼吸感;在毛毡、油画、工笔等特殊画风下保持视觉连贯;中英文对白承载情感层次,四川话、东北话、粤语等方言还原准确;语音、音效与背景音多轨配合自然。
四、参考生视频:综合实力强,多模态任务支持范围广
在参考生视频(R2V)任务上,字节将Seedance 2.0与Vidu Q2 Pro、Kling O1、Kling 3.0三款模型对比,评测覆盖多模态任务遵循、编辑一致性、参考对齐、运动质量、提示遵循五个维度。
![]()
▲R2V总体评分对比
Seedance 2.0在全部5个维度上均排名第一:多模态任务遵循2.50、提示遵循2.52(均为1–3分制),编辑一致性3.54、参考对齐3.03、运动质量3.24(均为1–5分制)。差距最大的是运动质量(领先竞品0.86–0.94分)和参考对齐(领先0.66–1.24分),最小的是编辑一致性(Kling 3.0仅落后0.17分)。
![]()
▲不同模型R2V多模态任务支持情况
更值得关注的是多模态任务支持的广度对比。Seedance 2.0支持22项输入模态任务中的20项,覆盖范围为评测中最广;相比之下Kling 3 Omni支持9项、Vidu Q2 Pro支持13项、Kling O1仅支持10项。其中视觉特效/创意参考(3种变体)和续写/扩展(4种变体)合计7类任务完全只有Seedance 2.0能处理,这是Seedance 2.0在R2V任务层面最显著的差异化优势。
不过,Seedance 2.0并非没有短板。在视频扩展(Extension)任务上,Veo 3.1以2.78的任务遵循得分(88.89%的3分率)明显领先Seedance 2.0的1.93(31.82%),参考对齐也是Veo 3.1的3.44高于3.28,论文直言这是Seedance 2.0在R2V中最弱的单项。字节解释,Seedance 2.0可接受任意上传视频进行扩展,而Veo 3.1只能扩展自己生成的视频,输入范围更广的代价是质量稳定性下降。
五、结语:视频生成更加精细,贴合真实物理世界
从论文来看,Seedance 2.0在视频生成与音频生成两大板块都展现出相当强的综合实力,这也是字节在生成式媒体技术上长期积累的集中体现。
不过,还需注意这篇论文有其时效性边界,论文引用的评测数据截止于2026年4月上旬,并未纳入此后涌现的新竞争者——近期登顶榜单的HappyHorse-1.0。字节团队也承认,Seedance 2.0仍存在轻微形变伪影、边缘场景运动合理性、高频视觉噪声、音频失真与多人口型同步误差等问题。
放在更大的视角,视频生成赛道对于新老玩家的要求正愈发严格,对于精确控制、音画同步、贴近真实物理世界的要求越来越高。不得不说新模型加入的速度,比论文发表的速度快多了。